1 Introduction et Objectif de l’étude :

Les résultats en matière de santé sont influencés par des facteurs socioéconomiques et environnementaux. À Chicago, les disparités géographiques et démographiques révèlent des inégalités marquées dans les déterminants de la santé, telles que la pauvreté, l’accès à l’éducation, le chômage, et les conditions de logement. Ces déterminants, souvent interconnectés, influencent directement la littératie en santé des populations, définie comme la capacité à comprendre et à utiliser les informations relatives à la santé pour prendre des décisions éclairées.

Des études ont montré que des facteurs tels que le revenu, le niveau d’éducation, l’accès aux soins, et les conditions de vie contribuent de manière significative à ces disparités.

C’est dans ce cadre que ce projet s’inscrit. Il s’agira de modéliser et de prédire les niveaux de littératie en santé en fonction des déterminants socioéconomiques, démographiques et spatiaux des secteurs de Chicago. De façon plus explicite, il s’agira d’identifier les facteurs clés influençant l’indice de littératie HealthLit et de formuler des recommandations pour améliorer les connaissances en santé.

2 Lecture des données et préparation des données

2.1 Source et description des données

https://geodacenter.github.io/data-and-lab/Chi-SDOH/

Les données utilisées dans cette étude proviennent principalement des bases publiques et administratives relatives à la ville de Chicago de la plateforme GeoDa data and Lab , complétées par des sources nationales et locales notamment Recensement Américain (U.S. Census Bureau), l’Agence de Planification Régionale de Chicago (CMAP) et le Service de Santé de Chicago pour garantir une couverture exhaustive des déterminants socioéconomiques et des résultats de santé.

2.2 Liste des variables :

Variable Description
OBJECTID Identifiant unique de secteur de recensement
Shape_Leng Périmètre
Shape_Area Aire
TRACTCE10 Code FIPS de tract
Géoïde10 Code d’identification GEO complet
commarea Indicatif régional de la communauté
EnfantPvt14 Pourcentage d’enfants vivant dans la pauvreté (2014)
EP_CROWD Pourcentage de logements surpeuplés (2014)
EP_UNINSUR Pourcentage de personnes non assurées (2014)
EP_MINRTY Pourcentage de minorités (2014)
Ovr6514P Pourcentage de la population âgée de plus de 65 ans (2014)
EP_AGE17 Pourcentage d’enfants et de jeunes (< 18 ans, 2014)
EP_DISABL Pourcentage de personnes handicapées (2014)
EP_NOHSDP Pourcentage sans diplôme d’études secondaires (2014)
EP_LIMENG Pourcentage ayant une maîtrise limitée de l’anglais (2014)
EP_SNGPNT Pourcentage de ménages monoparentaux (2014)
Pov14 Pourcentage de personnes vivant dans la pauvreté (2014)
EP_PCI Revenu par habitant (2014)
Unemp14 Taux de chômage (2014)
EP_NOVEH Pourcentage de ménages sans véhicule (2014)
FORCLRISK Risque de saisie (2011)
HealthLit Indice de littératie en santé (2014)
CarC14P Pourcentage de déplacements domicile-travail en voiture (2014)
VOITURE Variable indicatrice : Plus de 50 % du trajet en voiture
NOCAR Variable indicatrice : Moins de 50 % de déplacements en voiture
CTA14P Pourcentage de navetteurs en transport en commun (2014)
CTA Variable indicatrice : Plus de 50 % du transport en commun
CmTm14 Temps de trajet moyen (en minutes, 2014)
Undr514P Pourcentage de jeunes enfants (< 5 ans, 2014)
Wht14P Pourcentage de blancs (2014)
WHT50PCT Indicateur : Pourcentage de blancs d’origine
Wht Nouvelle variable d’indicateur blanc (>= 50 %)
Blk14P Pourcentage de Noirs (2014)
BLCK50PCT Indicateur : Pourcentage de Noirs d’origine
Blk Nouvelle variable d’indicateur noir (>= 50 %)
Hisp14P Pourcentage d’Hispaniques (2014)
HISP50PCT Indicateur : Pourcentage d’Hispaniques d’origine
Hisp Nouvelle variable indicatrice hispanique (>= 50 %)
Pop2014 Population totale (2014)
PDENS14 Densité de population (2014)
MEANMI_07 Distance moyenne aux supermarchés (en miles, 2007)
MEANMI_11 Distance moyenne aux supermarchés (en miles, 2011)
MEANMI_14 Distance moyenne aux supermarchés (en miles, 2014)
PCCRIMERT15 Taux de crimes contre les biens (2015)
VCRIMERT15 Taux de crimes violents (2015)
ForclRt Taux de saisies (2014)
EP_MUNIT Pourcentage de logements à logements multiples (2014)
EP_GROUPQ Population vivant en établissement (2014)
SchHP_MI Distance de l’école de haute performance la plus proche (2012)
BrownF_MI Distance jusqu’à la friche industrielle la plus proche (2012)

En combinant quelques de ces variables dans un modèle économétrique, nous pouvons examiner leur influence collective sur la littératie en santé par habitant dans la région de chicago et fournir des insights pour des décisions politiques éclairées.

L’équation de notre modèle économétrique est donc formulée comme suit :

\[ HealthLit =b_0+b_1*EP_CROWD+b_2*EP_DISABL +b_3*Unemp14+b_4*NOCAR+ b_5*CTA14P + b_6*Blk14P + b_7*Hisp14P + b_8*MEANMI_14 + b_8*PCRIMERT15 + b_9*VCRIMERT15 + b_10*ForclRt + b_11*SchHP_Mi + e \]

2.3 Statistiques descriptives

Pour approfondir notre compréhension du PIB par habitant, nous allons procéder à une analyse statistique desctriptive. Celle-ci consistera en la représentation graphique du l’indice de littératie en santé.

Le graphique présente la distribution de l’indice de littératie en santé (HealthLit), c’est-à-dire la capacité des individus à comprendre et utiliser des informations liées à la santé pour prendre des décisions éclairées. De ce graphique, on note une distribution asymétrique à gauche, avec une forte concentration des valeurs autour de 240 et 260. Cela indique que la majorité de la population de chicago possède un niveau de littératie en santé relativement élevé. Aussi, on constate qu’une petite proportion de la population présente un indice de littératie très faible (entre 120 et 200). Cette catégorie, bien que minoritaire, pourrait représenter un groupe vulnérable ayant des difficultés à accéder et à comprendre les informations médicales

2.3.1 Boxplots des personnes non assurées, du taux de pauvreté et des personnes handicapées

Ce graphique illustre les distributions de quatre déterminants socioéconomiques ayant un impact potentiel sur les résultats de santé des habitants de Chicago : le taux de personnes non assurées, le taux de pauvreté, le taux de chômage et le pourcentage de personnes handicapées. Le pourcentage de personnes non assurées montre une certaine dispersion avec des valeurs aberrantes élevées. Cela indique que dans certaines zones de Chicago, une grande partie de la population n’a pas accès à une couverture santé. Le taux de pauvreté présente également des valeurs extrêmes, révélant une forte hétérogénéité entre les quartiers de Chicago. Certaines zones souffrent de niveaux élevés de pauvreté. Aussi, le taux de chômage est relativement concentré autour de valeurs basses, mais quelques quartiers enregistrent des niveaux élevés. Cela traduit des disparités dans les opportunités économiques au sein de Chicago. Et enfin, le pourcentage de personnes handicapées présente une distribution assez resserrée, mais quelques valeurs aberrantes indiquent des zones où la proportion de personnes handicapées est plus élevée.

2.4 Correlation

Pour en apprendre davantage sur le type de lien qui existe entre notre variable cible et nos variables exogènes, nous utilisons une réprésentation graphique de nuage de points.

EP_CROWD + EP_DISABL + Unemp14 + NOCAR + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + VCRIMERT15 + ForclRt + SchHP_Mi

Les deux graphiques ci-dessus explorent la relation entre l’indice de littératie (HealthLit), les personnes noires et les personnes handicapées. De ces graphiques, on constate une légère augmentation du taux de personnes en situation de handicap avec l’augmentation de l’indice de littératie. Cependant, cette relation est très faible et peu significative au vu de la dispersion des points. Aussi, la courbe semble suggérer une légère augmentation du taux de personnes en situation de handicap avec l’augmentation de l’indice de littératie. Cependant, cette relation est très faible et peu significative au vu de la dispersion des points.

3 Représentation cartographique des données

3.1 Fond de carte

Nous procédons alors à la représentation d’un fond de carte essentiel pour l’intégration future des données socioéconomiques, facilitant ainsi l’analyse spatiale des déterminants de la santé

3.2 Représentation de l’indice de littératie en santé à chicago par tmap

Par la suite, une nouvelle variable catégorielle category a été créee pour segmenter les données de HealthLit en quartiles (Q1, Q2, Q3, Q4). Cela permet d’analyser la distribution des valeurs de manière groupée, facilitant par exemple la cartographie thématique ou des comparaisons statistiques entre les groupes.

Cette carte offre une visualisation intéressante des disparités en matière de littératie en santé à travers la ville de Chicago. Elle semble indiquer la présence de clusters de secteurs avec un faible niveau de littératie. Ces zones pourraient correspondre à des quartiers défavorisés, avec des populations à faible revenu, un niveau d’éducation plus bas et un accès limité aux soins de santé.

4 Matrice de poids basée sur les 4 plus proches voisins

4.1 Identification et représentation des 4 plus proches voisins

Afin de mieux comprendre la proximité spatiale des zones étudiées, une analyse des quatre plus proches voisins a été réalisée. Cette approche permet d’identifier les relations de voisinage immédiates pour chaque unité spatiale, facilitant ainsi la visualisation et l’interprétation des dynamiques locales au sein du territoire.

##      [,1] [,2] [,3] [,4]
## [1,]  521  399  599  487
## [2,]  709  629  710  188
## [3,]  368  244  339  153
## [4,]  359  752  199  258
## [5,]  747   95   88  748
## [6,]  287  331  233  227

4.2 Représentation graphique des 04 plus proches voisins

Pour la représentation on converti l’objet knn en une liste de voisins

4.3 Construction de la matrice de poids spatiale des 4 plus proches voisins

On Utilise dans ce cas la fonction nb2listw et de l’option standardisée

## Characteristics of weights list object:
## Neighbour list object:
## Number of regions: 791 
## Number of nonzero links: 3164 
## Percentage nonzero weights: 0.505689 
## Average number of links: 4 
## Non-symmetric neighbours list
## Link number distribution:
## 
##   4 
## 791 
## 791 least connected regions:
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 with 4 links
## 791 most connected regions:
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 789 790 791 with 4 links
## 
## Weights style: W 
## Weights constants summary:
##     n     nn  S0     S1      S2
## W 791 625681 791 356.25 3246.25

5 Matrice de poids spatiale basée sur la contiguité

5.1 Représentation des centroïdes

5.2 Contruction de la matrice de contiguité

5.2.1 Identification des voisins et représentation des liens

On commence par la représentation des centroïdes qui permet de localiser le point géométrique central de chaque unité spatiale. Ces centroïdes servent de repères pour visualiser la répartition des unités dans l’espace et faciliter les analyses spatiales ultérieures.

5.2.2 Création de la matrice de poids standardisée

La matrice de contiguïté est enfin créee afin de formaliser les relations spatiales entre unités géographiques adjacentes.

## Characteristics of weights list object:
## Neighbour list object:
## Number of regions: 791 
## Number of nonzero links: 5186 
## Percentage nonzero weights: 0.8288569 
## Average number of links: 6.556258 
## Link number distribution:
## 
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  18 
##   1   6  29  56 119 163 207 133  35  22   8   9   1   1   1 
## 1 least connected region:
## 644 with 1 link
## 1 most connected region:
## 125 with 18 links
## 
## Weights style: W 
## Weights constants summary:
##     n     nn  S0       S1       S2
## W 791 625681 791 255.3171 3234.081

6 Indices d’autocorrélation spatiale

6.1 Indice global de Moran

Dans cette section, nous procédons à un test de l’indice global de Moran qui est une mesure statistique permettant d’évaluer l’autocorrélation spatiale de notre variable cible HealthLit

6.1.1 Test de Moran sur la variable HealthLit par la matrice des 4 plus proches voisins

Le test de Moran appliqué à la variable HealthLit utilise la matrice des 4 plus proches voisins pour examiner l’existence d’une autocorrélation spatiale locale. Cette approche permet de vérifier si des valeurs similaires de l’indice de littératie en santé présentent un regroupement spatial significatif.

## 
##  Moran I test under normality
## 
## data:  data_chi$HealthLit  
## weights: W_KN4_chi    
## 
## Moran I statistic standard deviate = 9.4573, p-value < 2.2e-16
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      0.2237339471     -0.0012658228      0.0005660138

Le test de Moran effectué sur la variable HealthLit (littératie en santé) révèle une autocorrélation spatiale positive significative (p-value < 2.2e-16). Ces résultats montrent que les régions géographiquement proches tendent à afficher des niveaux similaires de littératie en santé. Cela peut traduire des dynamiques sociales ou économiques communes telles que l’accès aux infrastructures de santé, à l’éducation, ou encore des politiques publiques spécifiques à ces territoires.

L’analyse de l’autocorrélation spatiale de l’indice de littératie en santé HealthLit à l’aide du Moran Plot révèle des résultats significatifs pour comprendre la distribution géographique de cette variable cible. La valeur de I est de 0,224. Elle indique qu’il existe une autocorrélation spatiale positive pour l’indice de littératie en santé. Cela signifie que les secteurs voisins ont tendance à présenter des valeurs d’indice similaires. En d’autres termes, les zones avec un faible niveau de littératie en santé sont plus susceptibles d’être entourées d’autres zones avec un faible niveau, et inversement pour les zones à fort niveau. De plus, après avoir soustrait la moyenne de l’indice , l’indice de Moran reste inchangé (I centré = 0,224), ce qui montre la robustesse de notre analyse.

6.1.2 Test de Moran sur la variable HealthLit par la matrice de contiguité

On reproduit le même test mais cette fois ci avec la matrice de contiguité

## 
##  Moran I test under normality
## 
## data:  data_chi$HealthLit  
## weights: col.listw    
## 
## Moran I statistic standard deviate = 11.742, p-value < 2.2e-16
## alternative hypothesis: greater
## sample estimates:
## Moran I statistic       Expectation          Variance 
##      0.2349567824     -0.0012658228      0.0004047213

Au vu des résultats, on remarque que les résultats affichés ici sont similaires à ceux obtenus avec la matrice des 4 plus proches voisins. L’observation de résultats entre les deux approches renforce la robustesse de notre analyse.

On constate que les résultats sont conformes qu’à ceux de la matrice des 4 plus proches voisins ce qui atteste de la robustesse de notre analyse.

6.2 Lisa - Indice local de Moran

6.2.1 Par la matrice de Contiguité

On procède maintenant à l’indice Lisa qui est très utile pour identifier les clusters locaux, les zones d’anomalies et d’analyser les phénomènes spatiaux et comprendre les relations géographiques de la ville de Chicago.

##            Ii          E.Ii      Var.Ii       Z.Ii Pr(z != E(Ii))
## 1  0.32357916 -5.449302e-04 0.061075546  1.3115282      0.1896794
## 2  0.09482897 -7.183971e-05 0.006249443  1.2004643      0.2299591
## 3  0.05800055 -7.040910e-05 0.006125002  0.7420034      0.4580853
## 4 -0.06238236 -1.410193e-04 0.013817632 -0.5294954      0.5964619
## 5 -0.28236412 -1.995265e-03 0.260854009 -0.5489478      0.5830413
## 6 -0.15032184 -1.416773e-04 0.015885540 -1.1915481      0.2334385

On note que les p-value associées au test de significativité de Z.Ii sont supérieures à 0.05, ce qui signifie qu’aucune de ces observations ne montrent une autocorrélation spatiale significative pour l’indice de littératie en santé dans ces zones. Cela pourrait indiquer que d’autres facteurs que la proximité géographique influencent davantage la littératie en santé dans les zones étudiées

##            Ii          E.Ii      Var.Ii       Z.Ii Pr(z != E(Ii))
## 1  0.32357916 -5.449302e-04 0.061075546  1.3115282      0.1896794
## 2  0.09482897 -7.183971e-05 0.006249443  1.2004643      0.2299591
## 3  0.05800055 -7.040910e-05 0.006125002  0.7420034      0.4580853
## 4 -0.06238236 -1.410193e-04 0.013817632 -0.5294954      0.5964619
## 5 -0.28236412 -1.995265e-03 0.260854009 -0.5489478      0.5830413
## 6 -0.15032184 -1.416773e-04 0.015885540 -1.1915481      0.2334385
##            Ii          E.Ii      Var.Ii       Z.Ii Pr(z != E(Ii))
## 1  0.32357916 -5.449302e-04 0.061075546  1.3115282      0.1896794
## 2  0.09482897 -7.183971e-05 0.006249443  1.2004643      0.2299591
## 3  0.05800055 -7.040910e-05 0.006125002  0.7420034      0.4580853
## 4 -0.06238236 -1.410193e-04 0.013817632 -0.5294954      0.5964619
## 5 -0.28236412 -1.995265e-03 0.260854009 -0.5489478      0.5830413
## 6 -0.15032184 -1.416773e-04 0.015885540 -1.1915481      0.2334385

On constate que les deux dernières sorties sont conformes à la première. Ce qui confirme encore la robustesse de notre analyse.

6.2.2 Cartographie des indices locaux

On passe ensuite à la cartographie des indices locaux qui permet d’identifier visuellement les zones où des relations spatiales significatives sont présentes

La carte de l’indice de Moran local à Chicago présente une visualisation intéressante de l’autocorrélation spatiale de l’indice de littératie en santé à l’échelle des secteurs de recensement de Chicago. Les zones rouges présentent une autocorrélation spatiale positive élevée. Cela signifie que les secteurs de ces zones ont des valeurs d’indice de littératie en santé similaires et élevées, et sont entourés d’autres secteurs avec des valeurs élevées. Ces clusters de haute littératie en santé peuvent être dus à des facteurs socio-économiques communs, comme un niveau d’éducation élevé, un accès facile aux soins de santé, ou un environnement socioculturel favorisant la santé. Les zones en vert présentent une autocorrélation spatiale négative élevée. Cela signifie que les secteurs de ces zones ont des valeurs d’indice de littératie en santé faibles et sont entourés d’autres secteurs avec des valeurs faibles. Ces clusters de faible littératie en santé peuvent être liés à des facteurs tels que la pauvreté, le chômage, un faible niveau d’éducation, ou un accès limité aux services de santé. Et enfin, les zones en jaunes présentent une autocorrélation spatiale faible ou nulle. Cela signifie que les valeurs de l’indice de littératie en santé dans ces secteurs sont peu corrélées avec celles de leurs voisins. Ces zones peuvent représenter des zones de transition entre les zones à haute et à basse littératie en santé.

6.2.3 Significativité des indices locaux

L’analyse de la significativité des indices locaux est très importantes dans le sens qu’il permet de distinguer les zones où les relations spatiales détectées sont statistiquement robustes.

On observe sur la carte une représentation des quatres quadrants du diagramme de dispersion de Moran. Les zones en bleu (low-high) présentent des valeurs d’indice de littératie en santé faibles. Les zones en rouge (high-high) présentent des valeurs d’indice de littératie en santé élevées, et sont entourées d’autres zones avec des valeurs élevées. Ces clusters confirment les observations précédentes sur l’existence de zones où la littératie en santé est élevée et concentrée. Les zones en rose (low-low) présentent des valeurs d’indice de littératie en santé faibles, et sont entourées d’autres zones avec des valeurs faibles. Ces clusters correspondent aux zones où les défis en matière de littératie en santé sont les plus importants. Et enfin, les zones en blanc (insignifiant) sont les zones où l’autocorrélation spatiale est faible ou non significative.

7 Estimation avec les MCO et tests sur les résidus

7.1 Estimation de l’équation avec les MCO

Pour expliquer l’indice de littératie en santé chez les habitants de chicago, un modèle économétrique basé sur les principes théoriques a été conçu. Ce modèle intègre des variables clés qui sont susceptibles d’influencer le l’indice de littératie (HealthLit), conformément à notre cadre théorique :

\[ HealthLit =b_0+b_1*EP_CROWD+b_2*EP_DISABL +b_3*Unemp14+b_4*NOCAR+ b_5*CTA14P + b_6*Blk14P + b_7*Hisp14P + b_8*MEANMI_14 + b_8*PCRIMERT15 + b_9*VCRIMERT15 + b_10*ForclRt + b_11*SchHP_Mi + e \]

## 
## Call:
## lm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + NOCAR + 
##     CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + VCRIMERT15 + 
##     ForclRt + SchHP_Mi, data = data_chi)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -101.719   -8.226    1.872    9.897   35.114 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 239.05026    2.55926  93.406  < 2e-16 ***
## EP_CROWD      0.45880    0.14305   3.207 0.001395 ** 
## EP_DISABL     0.44058    0.12981   3.394 0.000723 ***
## Unemp14       0.17903    0.08723   2.052 0.040470 *  
## NOCAR        -3.98064    1.39866  -2.846 0.004543 ** 
## CTA14P        0.11343    0.05775   1.964 0.049866 *  
## Blk14P       -0.08626    0.03254  -2.651 0.008183 ** 
## Hisp14P      -0.07810    0.03273  -2.386 0.017272 *  
## MEANMI_14     3.15553    1.27024   2.484 0.013194 *  
## PCRIMERT15   79.32951   29.45007   2.694 0.007219 ** 
## VCRIMERT15  -96.92069   38.98243  -2.486 0.013118 *  
## ForclRt      -0.33603    0.13734  -2.447 0.014635 *  
## SchHP_Mi     -1.64810    0.59676  -2.762 0.005885 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14.15 on 778 degrees of freedom
## Multiple R-squared:  0.07282,    Adjusted R-squared:  0.05852 
## F-statistic: 5.092 on 12 and 778 DF,  p-value: 3.156e-08

Le modèle identifie plusieurs variables statistiquement significatifs de HealthLit, avec des associations parfois faibles. Cependant, on constate un faible R² ajusté indiquant que le modèle n’explique qu’une petite proportion de la variance totale. Cela suggère qu’il pourrait être utile d’explorer d’autres variables ou interactions pour mieux capturer les facteurs influençant l’indice de littératie.

7.2 Test d’hétéroscédasticité de white

Le test de Breusch-Pagan examine si les résidus du modèle de régression présentent une variance constante (homoscédasticité)

## 
##  studentized Breusch-Pagan test
## 
## data:  CHI_OLS
## BP = 50.806, df = 12, p-value = 1.008e-06

La p-value (1.008e-06 < 0.05) très faible indique que l’hypothèse nulle d’homoscédasticité est rejetée. Cela signifie qu’il y a une présence significative d’hétéroscédasticité dans les résidus du modèle.

7.3 Test de Moran d’autocorrélation spatiale par la matrice des 4 plus proches voisins

## 
##  Global Moran I for regression residuals
## 
## data:  
## model: lm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + NOCAR
## + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + VCRIMERT15 +
## ForclRt + SchHP_Mi, data = data_chi)
## weights: W_KN4_chi
## 
## Moran I statistic standard deviate = 8.2644, p-value < 2.2e-16
## alternative hypothesis: two.sided
## sample estimates:
## Observed Moran I      Expectation         Variance 
##     0.1856863513    -0.0085966425     0.0005526509

La valeur positive du Moran I 0.18 indique une autocorrélation spatiale globale modérée des résidus. Cela signifie que des valeurs similaires (positives ou négatives) des résidus tendent à se regrouper géographiquement. De plus, la p-value < 2.2e-16 confirme que l’autocorrélation spatiale des résidus est significative.

7.4 Test de Moran d’autocorrélation spatiale par la matrice standardisée basée sur la contiguité

## 
##  Global Moran I for regression residuals
## 
## data:  
## model: lm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + NOCAR
## + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + VCRIMERT15 +
## ForclRt + SchHP_Mi, data = data_chi)
## weights: col.listw
## 
## Moran I statistic standard deviate = 10.388, p-value < 2.2e-16
## alternative hypothesis: two.sided
## sample estimates:
## Observed Moran I      Expectation         Variance 
##     0.1968216380    -0.0083570855     0.0003901502

On constate également qu’avec la matrice de contiguité, l’autocorrélation spatiale des résidus demeure significative.

8 Estimation du modèle SLX

8.1 Estimation MCO avec la fonction lm

8.1.1 Spatial lag des variables

Afin de mieux traiter l’autocorrélation spatiale, nous introduisons un spatial lag pour chacune de nos variables. Cette approche permet de capturer l’influence des valeurs des variables dans les zones voisines, contribuant ainsi à une meilleure compréhension des dynamiques spatiales sous-jacentes.

8.1.2 Estimation avec la fonction LM

## 
## Call:
## lm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + NOCAR + 
##     CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + VCRIMERT15 + 
##     ForclRt + SchHP_Mi + W_EP_CROWD + W_EP_DISABL + W_Unemp14 + 
##     W_NOCAR + W_CTA14P + W_Blk14P + W_Hisp14P + W_MEANMI_14 + 
##     W_PCRIMERT15 + W_VCRIMERT15 + W_ForclRt + W_SchHP_Mi, data = data_chi)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -101.259   -7.746    1.642    8.970   32.026 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.341e+02  4.405e+00  53.155  < 2e-16 ***
## EP_CROWD      4.887e-01  1.529e-01   3.196 0.001450 ** 
## EP_DISABL     4.236e-01  1.378e-01   3.075 0.002182 ** 
## Unemp14       1.248e-01  9.920e-02   1.258 0.208694    
## NOCAR        -3.879e+00  1.531e+00  -2.533 0.011495 *  
## CTA14P        1.009e-01  7.786e-02   1.296 0.195343    
## Blk14P        7.978e-03  6.098e-02   0.131 0.895935    
## Hisp14P       8.132e-02  6.465e-02   1.258 0.208836    
## MEANMI_14    -2.316e+00  2.493e+00  -0.929 0.353067    
## PCRIMERT15    5.989e+01  3.525e+01   1.699 0.089689 .  
## VCRIMERT15   -7.432e+01  4.432e+01  -1.677 0.094020 .  
## ForclRt      -2.945e-01  1.531e-01  -1.924 0.054674 .  
## SchHP_Mi      2.346e-01  3.028e+00   0.077 0.938263    
## W_EP_CROWD    6.643e-01  2.960e-01   2.244 0.025095 *  
## W_EP_DISABL  -9.369e-02  2.834e-01  -0.331 0.741000    
## W_Unemp14     3.474e-01  1.650e-01   2.106 0.035567 *  
## W_NOCAR      -5.700e+00  3.088e+00  -1.846 0.065300 .  
## W_CTA14P      1.809e-01  1.191e-01   1.519 0.129078    
## W_Blk14P     -1.639e-01  7.761e-02  -2.112 0.035013 *  
## W_Hisp14P    -3.084e-01  8.461e-02  -3.645 0.000286 ***
## W_MEANMI_14   8.282e+00  3.317e+00   2.497 0.012738 *  
## W_PCRIMERT15  1.368e+02  5.692e+01   2.403 0.016492 *  
## W_VCRIMERT15 -1.937e+02  8.124e+01  -2.385 0.017332 *  
## W_ForclRt     1.965e-02  2.998e-01   0.066 0.947754    
## W_SchHP_Mi   -9.008e-01  3.294e+00  -0.273 0.784554    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.98 on 766 degrees of freedom
## Multiple R-squared:  0.1083, Adjusted R-squared:  0.08038 
## F-statistic: 3.877 on 24 and 766 DF,  p-value: 2.055e-09

L’ajout des lags spatiaux améliore légèrement le modèle en capturant les dépendances spatiales, ce qui peut être crucial dans des données géographiques où les interactions entre voisinages jouent un rôle important. Etant donné que les résidus présentent une autocorrélation significative (test de Moran I sur les résidus).

8.2 Estimation MCO avec la fonction lmSLX

## 
## Call:
## lm(formula = formula(paste("y ~ ", paste(colnames(x)[-1], collapse = "+"))), 
##     data = as.data.frame(x), weights = weights)
## 
## Coefficients:
##                 Estimate     Std. Error   t value      Pr(>|t|)   
## (Intercept)       2.341e+02    4.405e+00    5.316e+01   3.165e-259
## EP_CROWD          4.887e-01    1.529e-01    3.196e+00    1.450e-03
## EP_DISABL         4.236e-01    1.378e-01    3.075e+00    2.182e-03
## Unemp14           1.248e-01    9.920e-02    1.258e+00    2.087e-01
## NOCAR            -3.879e+00    1.531e+00   -2.533e+00    1.149e-02
## CTA14P            1.009e-01    7.786e-02    1.296e+00    1.953e-01
## Blk14P            7.978e-03    6.097e-02    1.308e-01    8.959e-01
## Hisp14P           8.132e-02    6.465e-02    1.258e+00    2.088e-01
## MEANMI_14        -2.316e+00    2.493e+00   -9.292e-01    3.531e-01
## PCRIMERT15        5.989e+01    3.525e+01    1.699e+00    8.969e-02
## VCRIMERT15       -7.432e+01    4.432e+01   -1.677e+00    9.402e-02
## ForclRt          -2.945e-01    1.531e-01   -1.924e+00    5.467e-02
## SchHP_Mi          2.346e-01    3.028e+00    7.748e-02    9.383e-01
## lag.EP_CROWD      6.643e-01    2.960e-01    2.244e+00    2.510e-02
## lag.EP_DISABL    -9.369e-02    2.834e-01   -3.306e-01    7.410e-01
## lag.Unemp14       3.474e-01    1.650e-01    2.106e+00    3.557e-02
## lag.NOCAR        -5.700e+00    3.088e+00   -1.846e+00    6.530e-02
## lag.CTA14P        1.809e-01    1.191e-01    1.519e+00    1.291e-01
## lag.Blk14P       -1.639e-01    7.761e-02   -2.112e+00    3.501e-02
## lag.Hisp14P      -3.084e-01    8.461e-02   -3.645e+00    2.857e-04
## lag.MEANMI_14     8.282e+00    3.317e+00    2.497e+00    1.274e-02
## lag.PCRIMERT15    1.368e+02    5.692e+01    2.403e+00    1.649e-02
## lag.VCRIMERT15   -1.937e+02    8.124e+01   -2.385e+00    1.733e-02
## lag.ForclRt       1.965e-02    2.998e-01    6.555e-02    9.478e-01
## lag.SchHP_Mi     -9.008e-01    3.294e+00   -2.735e-01    7.846e-01

Le modèle indique que des variables socio-économiques actuelles et retardées, telles que EP_CROWD (densité de population), EP_DISABL (taux de handicap), PCRIMERT15 et lag.PCRIMERT15 (taux de criminalité passée et présente), lag.Unemp14 (taux de chômage retardé), lag.Hisp14P (proportion d’Hispaniques retardée), et lag.MEANMI_14 (revenu moyen retardé), jouent un rôle clé dans la dynamique étudiée. Cependant, certaines variables, comme Blk14P (proportion de population noire) et SchHP_Mi (distance moyenne des écoles), bien que pertinentes en théorie, ne sont pas significatives dans ce modèle, ce qui pourrait justifier une exploration plus approfondie des interactions ou un ajustement des pondérations.

8.3 Calcul des effets marginaux avec la fonction impacts

## Impact measures (SlX, glht, n-k):
##                   Direct      Indirect        Total
## EP_CROWD     0.488688992    0.66428961    1.1529786
## EP_DISABL    0.423563416   -0.09369422    0.3298692
## Unemp14      0.124809917    0.34744497    0.4722549
## NOCAR       -3.878732881   -5.69978649   -9.5785194
## CTA14P       0.100916907    0.18094290    0.2818598
## Blk14P       0.007978023   -0.16391429   -0.1559363
## Hisp14P      0.081319771   -0.30837991   -0.2270601
## MEANMI_14   -2.316372802    8.28201595    5.9656431
## PCRIMERT15  59.888270924  136.79595241  196.6842233
## VCRIMERT15 -74.317093913 -193.74728956 -268.0643835
## ForclRt     -0.294549219    0.01965025   -0.2748990
## SchHP_Mi     0.234601831   -0.90079264   -0.6661908
## ========================================================
## Standard errors:
##                 Direct    Indirect       Total
## EP_CROWD    0.15290374  0.29598392  0.29512039
## EP_DISABL   0.13775803  0.28336476  0.28093576
## Unemp14     0.09919536  0.16501298  0.15087018
## NOCAR       1.53103931  3.08789876  2.97186361
## CTA14P      0.07786405  0.11908941  0.09714404
## Blk14P      0.06097486  0.07761227  0.04973821
## Hisp14P     0.06465083  0.08460984  0.05290783
## MEANMI_14   2.49281097  3.31692613  1.74937184
## PCRIMERT15 35.24511631 56.92420764 50.58281743
## VCRIMERT15 44.32483128 81.24360040 74.55267652
## ForclRt     0.15305978  0.29977726  0.28063342
## SchHP_Mi    3.02796966  3.29375918  0.74657452
## ========================================================
## Z-values:
##                 Direct    Indirect      Total
## EP_CROWD    3.19605646  2.24434354  3.9068077
## EP_DISABL   3.07469131 -0.33064881  1.1741802
## Unemp14     1.25822330  2.10556142  3.1302069
## NOCAR      -2.53339863 -1.84584629 -3.2230683
## CTA14P      1.29606551  1.51938698  2.9014628
## Blk14P      0.13084119 -2.11196363 -3.1351401
## Hisp14P     1.25783027 -3.64472874 -4.2916169
## MEANMI_14  -0.92922120  2.49689490  3.4101630
## PCRIMERT15  1.69919345  2.40312440  3.8883604
## VCRIMERT15 -1.67664697 -2.38476986 -3.5956373
## ForclRt    -1.92440643  0.06554949 -0.9795661
## SchHP_Mi    0.07747826 -0.27348467 -0.8923300
## 
## p-values:
##            Direct    Indirect   Total     
## EP_CROWD   0.0013932 0.02481031 9.3524e-05
## EP_DISABL  0.0021072 0.74090977 0.24032287
## Unemp14    0.2083110 0.03524247 0.00174683
## NOCAR      0.0112962 0.06491453 0.00126825
## CTA14P     0.1949529 0.12866512 0.00371425
## Blk14P     0.8959009 0.03468957 0.00171772
## Hisp14P    0.2084531 0.00026767 1.7738e-05
## MEANMI_14  0.3527745 0.01252861 0.00064924
## PCRIMERT15 0.0892827 0.01625566 0.00010092
## VCRIMERT15 0.0936115 0.01708981 0.00032360
## ForclRt    0.0543037 0.94773651 0.32730037
## SchHP_Mi   0.9382431 0.78448068 0.37221610

Les variables PCRIMERT15 et VCRIMERT15 dominent en termes d’impact, respectivement positif et négatif. D’autres variables, comme EP_CROWD, Unemp14, et MEANMI_14, montrent des effets significatifs et nécessitent une attention particulière.

8.4 Analyse des résidus

8.4.1 Test d’autocorrélation spatiale sur les résidus

## 
##  Global Moran I for regression residuals
## 
## data:  
## model: lm(formula = formula(paste("y ~ ", paste(colnames(x)[-1],
## collapse = "+"))), data = as.data.frame(x), weights = weights)
## weights: col.listw
## 
## Moran I statistic standard deviate = 9.4628, p-value < 2.2e-16
## alternative hypothesis: two.sided
## sample estimates:
## Observed Moran I      Expectation         Variance 
##     0.1746636126    -0.0117117718     0.0003879179

L’analyse de Moran’s I révèle une autocorrélation spatiale significative dans les résidus du modèle de régression.

8.4.2 Représentation cartographique des résidus

8.4.2.1 Résidus du modèle sans autocorrélation spatiale

8.4.2.2 Résidus du modèle SLX

8.4.2.3 Représentation de la densité des résidus MCO et SLX

Le graphique ci-dessus compare la distribution des résidus obtenus à partir du modèle MCO et du modèle spatial SLX. De ce graphique, on constate que les deux distributions de résidus semblent approximativement normales, centrées autour de zéro. Cela suggère que, globalement, les deux modèles capturent bien la tendance centrale des données.

8.5 Estimation du modèle SAR

8.5.1 Estimateur du maximum de vraissemblance SAR

## 
## Call:lagsarlm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + 
##     NOCAR + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + 
##     VCRIMERT15 + ForclRt + SchHP_Mi, data = data_chi, listw = col.listw)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -107.1245   -7.2129    1.2912    8.2195   32.9012 
## 
## Type: lag 
## Coefficients: (asymptotic standard errors) 
##               Estimate Std. Error z value  Pr(>|z|)
## (Intercept) 127.675554  11.475420 11.1260 < 2.2e-16
## EP_CROWD      0.378117   0.132159  2.8611 0.0042221
## EP_DISABL     0.399536   0.120098  3.3267 0.0008787
## Unemp14       0.112734   0.080572  1.3992 0.1617601
## NOCAR        -3.354883   1.291534 -2.5976 0.0093879
## CTA14P        0.095274   0.053313  1.7871 0.0739261
## Blk14P       -0.053847   0.030088 -1.7897 0.0735082
## Hisp14P      -0.044107   0.030225 -1.4593 0.1444873
## MEANMI_14     1.697315   1.174804  1.4448 0.1485242
## PCRIMERT15   64.519993  27.188988  2.3730 0.0176433
## VCRIMERT15  -74.465294  35.993197 -2.0689 0.0385582
## ForclRt      -0.313415   0.126942 -2.4690 0.0135505
## SchHP_Mi     -1.052047   0.557425 -1.8873 0.0591156
## 
## Rho: 0.45858, LR test value: 83.045, p-value: < 2.22e-16
## Asymptotic standard error: 0.045967
##     z-value: 9.9762, p-value: < 2.22e-16
## Wald statistic: 99.525, p-value: < 2.22e-16
## 
## Log likelihood: -3169.949 for lag model
## ML residual variance (sigma squared): 170.52, (sigma: 13.059)
## Number of observations: 791 
## Number of parameters estimated: 15 
## AIC: 6369.9, (AIC for lm: 6450.9)
## LM test for residual autocorrelation
## test value: 2.0513, p-value: 0.15208

Les résultats de l’estimation du modèle SAR montrent que les variables EP_CROWD (densité de la foule) et EP_DISABL (handicap) ont des effets positifs et significatifs sur la littératie en santé (accès à l’information en santé), suggérant que des niveaux plus élevés de ces facteurs sont associés à une meilleure littératie en santé. Aussi la variable NOCAR (absence de voiture) a un effet négatif et significatif, ce qui indique qu’une plus grande proportion de la population sans voiture est associée à une littératie en santé (accès aux ressources en santé) plus faible. De plus, Certaines variables comme Unemp14 (taux de chômage), Hisp14P (pourcentage d’Hispaniques), et SchHP_Mi (indicateur des problèmes scolaires) ne sont pas significatives dans ce modèle. Cela suggère que ces facteurs n’ont pas d’impact direct sur la littératie en santé dans ce contexte spatial. Enfin, le test de vérification de l’autocorrélation spatiale (LR test pour Rho) confirme que l’effet spatial est bien présent et pertinent pour ce modèle, avec une p-value très faible (p-value: < 2.22e-16).

8.5.2 Calcul des effets directs et indirects avec la fonction impacts

## Impact measures (lag, exact):
##                  Direct     Indirect         Total
## EP_CROWD     0.39423106   0.30414731    0.69837837
## EP_DISABL    0.41656282   0.32137615    0.73793897
## Unemp14      0.11753818   0.09068012    0.20821830
## NOCAR       -3.49785905  -2.69858089   -6.19643993
## CTA14P       0.09933431   0.07663593    0.17597023
## Blk14P      -0.05614169  -0.04331303   -0.09945472
## Hisp14P     -0.04598641  -0.03547829   -0.08146470
## MEANMI_14    1.76965028   1.36527641    3.13492668
## PCRIMERT15  67.26966355  51.89821147  119.16787502
## VCRIMERT15 -77.63880703 -59.89795419 -137.53676122
## ForclRt     -0.32677142  -0.25210253   -0.57887394
## SchHP_Mi    -1.09688219  -0.84623917   -1.94312136
## ========================================================
## Simulation results ( variance matrix):
## Direct:
## 
## Iterations = 1:1000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 1000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                 Mean       SD  Naive SE Time-series SE
## EP_CROWD     0.40259  0.13778 0.0043570      0.0043570
## EP_DISABL    0.42083  0.12635 0.0039955      0.0039955
## Unemp14      0.11951  0.08488 0.0026841      0.0026841
## NOCAR       -3.48654  1.37113 0.0433589      0.0400478
## CTA14P       0.09872  0.05633 0.0017814      0.0017814
## Blk14P      -0.05775  0.03156 0.0009981      0.0009981
## Hisp14P     -0.04717  0.03221 0.0010185      0.0010866
## MEANMI_14    1.75596  1.25064 0.0395488      0.0395488
## PCRIMERT15  66.54015 28.50420 0.9013819      0.9996940
## VCRIMERT15 -76.55020 38.47708 1.2167522      1.2167522
## ForclRt     -0.33181  0.13960 0.0044145      0.0044145
## SchHP_Mi    -1.06089  0.58882 0.0186201      0.0186201
## 
## 2. Quantiles for each variable:
## 
##                  2.5%        25%       50%       75%      97.5%
## EP_CROWD      0.12307    0.31255   0.40419   0.49641   0.657878
## EP_DISABL     0.18353    0.33410   0.41564   0.50756   0.676087
## Unemp14      -0.05317    0.06412   0.12009   0.17637   0.279147
## NOCAR        -6.02512   -4.42089  -3.57540  -2.58662  -0.709830
## CTA14P       -0.01570    0.06122   0.09884   0.13711   0.206275
## Blk14P       -0.11876   -0.07959  -0.05794  -0.03650   0.003551
## Hisp14P      -0.11038   -0.06819  -0.04756  -0.02454   0.017499
## MEANMI_14    -0.80003    0.94510   1.74113   2.62143   4.156053
## PCRIMERT15   10.32045   47.32189  67.65376  85.42854 121.179772
## VCRIMERT15 -150.53864 -101.06684 -76.61164 -51.70070   2.458329
## ForclRt      -0.60604   -0.42753  -0.32711  -0.23696  -0.058618
## SchHP_Mi     -2.26596   -1.47453  -1.04551  -0.65218   0.083784
## 
## ========================================================
## Indirect:
## 
## Iterations = 1:1000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 1000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                 Mean       SD  Naive SE Time-series SE
## EP_CROWD     0.31399  0.12269 0.0038797      0.0038797
## EP_DISABL    0.32737  0.11338 0.0035853      0.0035853
## Unemp14      0.09295  0.06864 0.0021706      0.0021706
## NOCAR       -2.70972  1.18034 0.0373257      0.0349573
## CTA14P       0.07687  0.04735 0.0014973      0.0014973
## Blk14P      -0.04463  0.02562 0.0008101      0.0008452
## Hisp14P     -0.03649  0.02610 0.0008253      0.0009400
## MEANMI_14    1.35885  1.01046 0.0319535      0.0319535
## PCRIMERT15  52.08175 25.13967 0.7949862      0.9590886
## VCRIMERT15 -59.90153 32.62691 1.0317535      1.0317535
## ForclRt     -0.25865  0.11870 0.0037536      0.0037536
## SchHP_Mi    -0.81932  0.47769 0.0151058      0.0151058
## 
## 2. Quantiles for each variable:
## 
##                  2.5%       25%       50%       75%      97.5%
## EP_CROWD      0.09806   0.22709   0.30648   0.39077   0.576314
## EP_DISABL     0.12853   0.24659   0.31783   0.39756   0.577552
## Unemp14      -0.03666   0.04633   0.09005   0.13565   0.231119
## NOCAR        -5.08105  -3.44862  -2.63442  -1.94105  -0.489717
## CTA14P       -0.01048   0.04414   0.07293   0.10562   0.175483
## Blk14P       -0.10259  -0.05996  -0.04416  -0.02741   0.002927
## Hisp14P      -0.09080  -0.05236  -0.03573  -0.01889   0.012873
## MEANMI_14    -0.66240   0.70198   1.33658   2.01392   3.381919
## PCRIMERT15    7.80141  34.94956  50.80029  67.76384 110.118307
## VCRIMERT15 -131.07462 -79.77949 -57.84309 -38.97507   1.883362
## ForclRt      -0.51156  -0.33269  -0.25037  -0.17806  -0.043284
## SchHP_Mi     -1.83207  -1.11350  -0.78636  -0.48883   0.064254
## 
## ========================================================
## Total:
## 
## Iterations = 1:1000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 1000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                  Mean       SD Naive SE Time-series SE
## EP_CROWD      0.71658  0.25302 0.008001       0.008001
## EP_DISABL     0.74820  0.23114 0.007309       0.007309
## Unemp14       0.21246  0.15193 0.004804       0.004804
## NOCAR        -6.19625  2.49220 0.078810       0.073077
## CTA14P        0.17559  0.10225 0.003233       0.003233
## Blk14P       -0.10238  0.05630 0.001780       0.001780
## Hisp14P      -0.08366  0.05768 0.001824       0.001964
## MEANMI_14     3.11481  2.23624 0.070716       0.070716
## PCRIMERT15  118.62190 52.58933 1.663021       2.019435
## VCRIMERT15 -136.45172 69.97163 2.212697       2.212697
## ForclRt      -0.59046  0.25268 0.007991       0.007991
## SchHP_Mi     -1.88021  1.05095 0.033234       0.033234
## 
## 2. Quantiles for each variable:
## 
##                  2.5%       25%        50%       75%      97.5%
## EP_CROWD      0.22530    0.5478    0.71233   0.88680   1.193745
## EP_DISABL     0.32042    0.5854    0.74105   0.89780   1.217700
## Unemp14      -0.09068    0.1119    0.21341   0.31769   0.507534
## NOCAR       -10.93061   -7.8905   -6.20553  -4.53927  -1.163534
## CTA14P       -0.02505    0.1066    0.17273   0.24374   0.375706
## Blk14P       -0.21540   -0.1392   -0.10349  -0.06380   0.006478
## Hisp14P      -0.20002   -0.1213   -0.08422  -0.04377   0.029008
## MEANMI_14    -1.54863    1.6504    3.09815   4.68338   7.458589
## PCRIMERT15   17.99890   82.7474  119.19116 152.94549 230.735445
## VCRIMERT15 -278.43953 -182.4208 -135.27217 -91.13030   4.378437
## ForclRt      -1.09733   -0.7628   -0.58100  -0.42269  -0.105455
## SchHP_Mi     -4.04642   -2.5927   -1.82338  -1.15035   0.148184
## 
## ========================================================
## Simulated standard errors
##                 Direct    Indirect       Total
## EP_CROWD    0.13778115  0.12268795  0.25302203
## EP_DISABL   0.12634962  0.11337619  0.23113855
## Unemp14     0.08487983  0.06863970  0.15193081
## NOCAR       1.37113017  1.18034140  2.49220476
## CTA14P      0.05633317  0.04734962  0.10225083
## Blk14P      0.03156376  0.02561606  0.05630317
## Hisp14P     0.03220855  0.02609840  0.05767672
## MEANMI_14   1.25064436  1.01045735  2.23624000
## PCRIMERT15 28.50419973 25.13967168 52.58933086
## VCRIMERT15 38.47708378 32.62691087 69.97163036
## ForclRt     0.13959728  0.11870042  0.25268320
## SchHP_Mi    0.58882014  0.47768839  1.05095042
## 
## Simulated z-values:
##               Direct  Indirect     Total
## EP_CROWD    2.921982  2.559224  2.832085
## EP_DISABL   3.330669  2.887479  3.237020
## Unemp14     1.407968  1.354136  1.398371
## NOCAR      -2.542819 -2.295708 -2.486254
## CTA14P      1.752371  1.623477  1.717225
## Blk14P     -1.829668 -1.742170 -1.818347
## Hisp14P    -1.464454 -1.398213 -1.450482
## MEANMI_14   1.404043  1.344789  1.392879
## PCRIMERT15  2.334398  2.071696  2.255627
## VCRIMERT15 -1.989501 -1.835955 -1.950101
## ForclRt    -2.376930 -2.179005 -2.336767
## SchHP_Mi   -1.801719 -1.715179 -1.789056
## 
## Simulated p-values:
##            Direct     Indirect  Total    
## EP_CROWD   0.00347812 0.0104906 0.0046246
## EP_DISABL  0.00086638 0.0038834 0.0012079
## Unemp14    0.15914047 0.1756929 0.1620017
## NOCAR      0.01099622 0.0216926 0.0129096
## CTA14P     0.07971000 0.1044874 0.0859381
## Blk14P     0.06729961 0.0814788 0.0690111
## Hisp14P    0.14307003 0.1620490 0.1469241
## MEANMI_14  0.16030607 0.1786933 0.1636565
## PCRIMERT15 0.01957488 0.0382938 0.0240940
## VCRIMERT15 0.04664593 0.0663644 0.0511641
## ForclRt    0.01745739 0.0293313 0.0194513
## SchHP_Mi   0.07158962 0.0863125 0.0736057

Les résultats montrent que plusieurs variables ont un impact direct significatif sur l’indice de littératie, tant positivement que négativement.

Des variables comme EP_CROWD (0.3942) et EP_DISABL (0.4166) suggèrent qu’une augmentation de la densité de la population ou des taux de handicap peuvent avoir un effet positif direct sur l’indice de littératie. De même, des facteurs socio-économiques comme Unemp14 (0.1175) ou des indicateurs éducatifs tels que MEANMI_14 (1.7697) montrent que des taux de chômage plus élevés ou un niveau de diplôme moyen plus bas peuvent être associés à un impact plus élevé.

D’autres variables comme NOCAR (-3.4979) et VCRIMERT15 (-77.6388) indiquent qu’une absence de véhicule ou une réduction des crimes violents ont un effet négatif important. Ces résultats suggèrent que l’accès à la mobilité ou la diminution de la criminalité pourrait réduire certains effets négatifs sur l’accès aux ressources en santé (l’indice de littératie).

Les variables démographiques comme Blk14P (-0.0561) et Hisp14P (-0.0460) montrent des effets négatifs, bien que relativement faibles, sur l’indice de littératie en fonction de la proportion de personnes noires ou hispaniques dans la population. Cela pourrait refléter des disparités liées à ces caractéristiques.

Les variables telles que PCRIMERT15 (67.2697) et ForclRt (-0.3268) soulignent l’impact direct de la criminalité et des politiques de force de police sur l’indicateur. Un taux plus élevé de criminalité en relation avec les forces de l’ordre semble avoir un effet considérable sur l’indice de littératie.

8.5.3 Analyse des résidus MV du modèle SAR

8.5.3.1 Représentation cartographique des résidus SAR

8.5.3.2 Représentation de la densité des résidus MCO et SAR

De ce graphique, on observe que le modèle MCO, en ne tenant pas compte de la dépendance spatiale, semble sous-estimer la variabilité des données, comme en témoigne l’étalement plus important de ses résidus. Le modèle SLX, en incorporant un effet de retard spatial, capture une partie de la structure spatiale des données, ce qui se traduit par une réduction de l’étalement des résidus par rapport au modèle MCO. Par contre, le modèle SAR, en tenant compte de l’autocorrélation spatiale, semble offrir un ajustement encore meilleur aux données, avec des résidus plus concentrés autour de zéro et une distribution plus symétrique.

8.5.3.3 Prédictions avec le modèle SAR

8.5.3.4 Prédiction selon les 3 prédicteurs, Trend Corrected, Trend Signal Noise et BLUP

##     pred_TC         pred_TS         pred_BP     
##  Min.   :229.5   Min.   :228.0   Min.   :216.5  
##  1st Qu.:240.2   1st Qu.:239.1   1st Qu.:238.3  
##  Median :242.6   Median :242.9   Median :243.0  
##  Mean   :242.7   Mean   :242.5   Mean   :242.5  
##  3rd Qu.:245.0   3rd Qu.:246.2   3rd Qu.:247.5  
##  Max.   :254.5   Max.   :257.6   Max.   :262.4

8.5.3.5 Comparaison des prédictions

Le graphique présenté compare la distribution des types de prédictions issues du modèle SAR. On constate que les boîtes à moustaches sont relativement proches les unes des autres, suggérant que les différentes prédictions sont globalement cohérentes. Aussi, le fait que les prédictions BLUP, Trend Corrected et Trend Signal Noise soient relativement proches des valeurs observées suggère que le modèle SAR capture bien la structure spatiale des données.

8.5.3.6 Représentation de la densité des prédictions avec la fonction geom_density

8.5.3.7 Représentation de la densité des prédictions avec la fonction geom_density_ridges

Ce graphique présente une visualisation des distributions de différentes prédictions obtenues à partir d’un modèle SAR, appliquées à la variable HealthLit (niveau de littératie en santé ou accès à l’information sur la santé). De ce graphique, on constate que toutes les distributions présentent un pic unique. Cela suggère une distribution relativement normale des données.

8.5.4 Estimation du modèle SAR et variables instrumentales

Etant donné que les résidus présentent toujours une autocorrélation spatiale significative, on passe à l’estimation du modèle SAR et variables instrumentales.

8.5.4.1 Estimation avec la fonction stsls

## 
## Call:stsls(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + 
##     NOCAR + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + 
##     VCRIMERT15 + ForclRt + SchHP_Mi, data = data_chi, listw = col.listw)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -112.99796   -6.68280    0.82271    7.57048   39.64452 
## 
## Coefficients: 
##                Estimate  Std. Error t value  Pr(>|t|)
## Rho           0.9568553   0.1357864  7.0468 1.831e-12
## (Intercept)   6.6595956  33.0634133  0.2014  0.840371
## EP_CROWD      0.2904528   0.1346196  2.1576  0.030960
## EP_DISABL     0.3549421   0.1208324  2.9375  0.003309
## Unemp14       0.0406937   0.0831431  0.4894  0.624528
## NOCAR        -2.6749593   1.3085567 -2.0442  0.040933
## CTA14P        0.0755483   0.0537536  1.4055  0.159886
## Blk14P       -0.0186240   0.0316261 -0.5889  0.555941
## Hisp14P      -0.0071735   0.0319418 -0.2246  0.822306
## MEANMI_14     0.1128706   1.2531711  0.0901  0.928233
## PCRIMERT15   48.4284726  27.6255848  1.7530  0.079597
## VCRIMERT15  -50.0660216  36.7109348 -1.3638  0.172634
## ForclRt      -0.2888363   0.1273736 -2.2676  0.023352
## SchHP_Mi     -0.4043930   0.5801923 -0.6970  0.485804
## 
## Residual variance (sigma squared): 171.62, (sigma: 13.1)

Le coefficient rho = 0.957 est significatif (p = 0.0001). Ce qui confirme une forte autocorrelation spatiale. Cela montre que HealthLit dans une région est influencé par les valeurs observées dans les régions voisines. Alors, on conclut que le modèle capture efficacement la dépendance spatiale dans les données, justifiant l’utilisation de la méthode SAR avec STSLS. Cependant, on observe toujours une autocorrelation des résidus. On pourra tester le modèle SEM dans ce cadre.

9 Estimation du modèle SEM

9.1 Estimation avec la fonction errorsarlm

## 
## Call:errorsarlm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + 
##     NOCAR + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + 
##     VCRIMERT15 + ForclRt + SchHP_Mi, data = data_chi, listw = col.listw)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -103.8736   -7.4230    1.3980    8.2399   33.4990 
## 
## Type: error 
## Coefficients: (asymptotic standard errors) 
##               Estimate Std. Error z value  Pr(>|z|)
## (Intercept) 240.179376   3.065369 78.3525 < 2.2e-16
## EP_CROWD      0.369103   0.139465  2.6466 0.0081313
## EP_DISABL     0.448170   0.125813  3.5622 0.0003678
## Unemp14       0.095316   0.089374  1.0665 0.2862072
## NOCAR        -3.129426   1.389062 -2.2529 0.0242651
## CTA14P        0.085949   0.064562  1.3313 0.1831065
## Blk14P       -0.049803   0.038759 -1.2849 0.1988181
## Hisp14P      -0.020269   0.040141 -0.5049 0.6135982
## MEANMI_14     1.481500   1.629871  0.9090 0.3633672
## PCRIMERT15   51.312610  31.245823  1.6422 0.1005438
## VCRIMERT15  -62.932608  39.687788 -1.5857 0.1128092
## ForclRt      -0.352987   0.136325 -2.5893 0.0096168
## SchHP_Mi     -1.980893   0.909942 -2.1769 0.0294847
## 
## Lambda: 0.4713, LR test value: 80.326, p-value: < 2.22e-16
## Asymptotic standard error: 0.046246
##     z-value: 10.191, p-value: < 2.22e-16
## Wald statistic: 103.86, p-value: < 2.22e-16
## 
## Log likelihood: -3171.308 for error model
## ML residual variance (sigma squared): 170.7, (sigma: 13.065)
## Number of observations: 791 
## Number of parameters estimated: 15 
## AIC: 6372.6, (AIC for lm: 6450.9)

Le modèle SEM corrige les biais dus à la corrélation spatiale dans les résidus. Cela garantit que les estimations des coefficients sont non biaisées et fiables. Aussi, Avec un λ significatif et un AIC inférieur à celui du modèle classique, le modèle capture efficacement la structure spatiale des données.

9.2 Analyse des résidus

9.2.1 Représentation cartographique des résidus

9.2.2 Comparaison des densités des résidus des différents modèles

On constate que les résidus des trois modèles SAR, SEM et SLX semblent centrés autour de 0, ce qui suggère qu’ils ne présentent pas de biais significatif. Par contre, la distribution des résidus MCO est plus étalée, ce qui suggère une moins bonne adéquation du modèle aux données. Cela peut être dû à la présence d’autocorrélation spatiale dans les données, que les modèles spatiaux prennent en compte. Alors, on conclut que les modèles spatiaux (SAR, SEM, SLX) offrent une meilleure adéquation aux données que le modèle MCO classique

10 Estimation du modèle SDM

10.1 Estimation avec la fonction lagsarlm

## 
## Call:lagsarlm(formula = HealthLit ~ EP_CROWD + EP_DISABL + Unemp14 + 
##     NOCAR + CTA14P + Blk14P + Hisp14P + MEANMI_14 + PCRIMERT15 + 
##     VCRIMERT15 + ForclRt + SchHP_Mi, data = data_chi, listw = col.listw, 
##     Durbin = TRUE)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -103.7557   -7.2679    1.2360    8.1600   31.3240 
## 
## Type: mixed 
## Coefficients: (asymptotic standard errors) 
##                   Estimate  Std. Error z value  Pr(>|z|)
## (Intercept)    133.2004615  12.0269131 11.0752 < 2.2e-16
## EP_CROWD         0.4347225   0.1418649  3.0643 0.0021815
## EP_DISABL        0.4314715   0.1277329  3.3779 0.0007304
## Unemp14          0.0956195   0.0920126  1.0392 0.2987119
## NOCAR           -3.3238585   1.4201018 -2.3406 0.0192539
## CTA14P           0.0920656   0.0722016  1.2751 0.2022672
## Blk14P           0.0051559   0.0565428  0.0912 0.9273456
## Hisp14P          0.0844286   0.0599569  1.4082 0.1590848
## MEANMI_14       -1.5942261   2.3113854 -0.6897 0.4903656
## PCRIMERT15      49.6032119  32.6915471  1.5173 0.1291884
## VCRIMERT15     -63.2771690  41.1132156 -1.5391 0.1237810
## ForclRt         -0.3151535   0.1419200 -2.2206 0.0263752
## SchHP_Mi        -0.3875237   2.8076981 -0.1380 0.8902231
## lag.EP_CROWD     0.2409654   0.2762440  0.8723 0.3830492
## lag.EP_DISABL   -0.2370790   0.2634574 -0.8999 0.3681862
## lag.Unemp14      0.1832429   0.1537625  1.1917 0.2333683
## lag.NOCAR       -3.4567747   2.8807797 -1.1999 0.2301610
## lag.CTA14P       0.0882651   0.1107955  0.7966 0.4256550
## lag.Blk14P      -0.1029105   0.0721513 -1.4263 0.1537771
## lag.Hisp14P     -0.2215624   0.0786859 -2.8158 0.0048659
## lag.MEANMI_14    4.8639821   3.0820270  1.5782 0.1145251
## lag.PCRIMERT15  76.6489341  53.1362133  1.4425 0.1491617
## lag.VCRIMERT15 -85.8065163  75.7942188 -1.1321 0.2575931
## lag.ForclRt      0.1126094   0.2782847  0.4047 0.6857308
## lag.SchHP_Mi     0.1105494   3.0550014  0.0362 0.9711338
## 
## Rho: 0.43083, LR test value: 67.768, p-value: 2.2204e-16
## Asymptotic standard error: 0.047822
##     z-value: 9.0091, p-value: < 2.22e-16
## Wald statistic: 81.163, p-value: < 2.22e-16
## 
## Log likelihood: -3162.147 for mixed model
## ML residual variance (sigma squared): 168.02, (sigma: 12.962)
## Number of observations: 791 
## Number of parameters estimated: 27 
## AIC: 6378.3, (AIC for lm: 6444.1)
## LM test for residual autocorrelation
## test value: 2.4626, p-value: 0.11659

Le modèle SDM est globalement bien adapté à nos données, comme en témoignent la significativité de Rho (p < 2.22e-16) et l’amélioration de l’AIC par rapport au modèle linéaire classique.

10.2 Calcul des effets directs et indirects

## Impact measures (mixed, exact):
##                   Direct      Indirect        Total
## EP_CROWD     0.471225370    0.71592255    1.1871479
## EP_DISABL    0.427108436   -0.08557115    0.3415373
## Unemp14      0.114749736    0.37519686    0.4899466
## NOCAR       -3.740559582   -8.17265560  -11.9132152
## CTA14P       0.102969766    0.21386164    0.3168314
## Blk14P      -0.003426483   -0.16832328   -0.1717498
## Hisp14P      0.068643969   -0.30958071   -0.2409367
## MEANMI_14   -1.238183661    6.98297256    5.7447889
## PCRIMERT15  57.957998404  163.86036799  221.8183664
## VCRIMERT15 -72.914649384 -189.01752807 -261.9321775
## ForclRt     -0.317128296   -0.03873099   -0.3558593
## SchHP_Mi    -0.392331698   -0.09429756   -0.4866293
## ========================================================
## Simulation results ( variance matrix):
## Direct:
## 
## Iterations = 1:1000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 1000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                  Mean       SD Naive SE Time-series SE
## EP_CROWD     0.474824  0.14464 0.004574       0.004574
## EP_DISABL    0.429571  0.12411 0.003925       0.003925
## Unemp14      0.113409  0.09048 0.002861       0.002861
## NOCAR       -3.805666  1.44117 0.045574       0.045574
## CTA14P       0.102565  0.06920 0.002188       0.002188
## Blk14P      -0.003266  0.05383 0.001702       0.001698
## Hisp14P      0.067448  0.05787 0.001830       0.001830
## MEANMI_14   -1.318832  2.15650 0.068195       0.068195
## PCRIMERT15  57.954220 31.89575 1.008632       1.008632
## VCRIMERT15 -71.073450 39.03360 1.234351       1.234351
## ForclRt     -0.318866  0.13906 0.004397       0.005273
## SchHP_Mi    -0.416287  2.63347 0.083278       0.083278
## 
## 2. Quantiles for each variable:
## 
##                  2.5%       25%        50%       75%     97.5%
## EP_CROWD      0.19069   0.37255   0.475301   0.58054   0.75539
## EP_DISABL     0.19325   0.34338   0.428033   0.51084   0.67188
## Unemp14      -0.06643   0.04974   0.113251   0.17581   0.28730
## NOCAR        -6.55468  -4.81761  -3.817560  -2.82065  -0.97010
## CTA14P       -0.02943   0.05634   0.104352   0.14921   0.23317
## Blk14P       -0.10156  -0.04135  -0.001619   0.03644   0.09602
## Hisp14P      -0.05088   0.03013   0.067699   0.10820   0.17711
## MEANMI_14    -5.60224  -2.76962  -1.261734   0.21019   2.71838
## PCRIMERT15   -6.61726  36.74549  58.852263  79.76917 119.55118
## VCRIMERT15 -148.09177 -96.30646 -70.296274 -44.32299  -0.11621
## ForclRt      -0.58727  -0.40700  -0.322955  -0.22223  -0.03689
## SchHP_Mi     -5.42362  -2.27123  -0.376349   1.46180   4.51383
## 
## ========================================================
## Indirect:
## 
## Iterations = 1:1000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 1000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                  Mean        SD Naive SE Time-series SE
## EP_CROWD      0.72449   0.45553 0.014405       0.014405
## EP_DISABL    -0.10770   0.43381 0.013718       0.013718
## Unemp14       0.37409   0.23598 0.007462       0.007829
## NOCAR        -8.30574   4.51591 0.142806       0.142806
## CTA14P        0.21582   0.16015 0.005064       0.005064
## Blk14P       -0.16807   0.09126 0.002886       0.002723
## Hisp14P      -0.31013   0.10505 0.003322       0.003322
## MEANMI_14     7.00053   3.73540 0.118124       0.118124
## PCRIMERT15  165.43186  81.66165 2.582368       2.904710
## VCRIMERT15 -189.89286 123.78031 3.914277       3.914277
## ForclRt      -0.04013   0.43138 0.013641       0.013641
## SchHP_Mi     -0.07589   3.13806 0.099234       0.099234
## 
## 2. Quantiles for each variable:
## 
##                  2.5%       25%        50%       75%      97.5%
## EP_CROWD     -0.14473    0.4346    0.71201    1.0194   1.651382
## EP_DISABL    -0.96290   -0.3775   -0.09915    0.1711   0.700251
## Unemp14      -0.06917    0.2158    0.36339    0.5369   0.865589
## NOCAR       -17.32857  -11.2055   -8.27949   -5.2436   0.180990
## CTA14P       -0.08201    0.1080    0.21067    0.3208   0.520896
## Blk14P       -0.34335   -0.2308   -0.16313   -0.1083   0.001371
## Hisp14P      -0.51139   -0.3797   -0.30845   -0.2390  -0.107810
## MEANMI_14    -0.09134    4.3809    7.01155    9.6649  14.406631
## PCRIMERT15    5.71297  112.4656  163.80736  219.3439 334.103738
## VCRIMERT15 -436.73341 -270.0320 -190.42278 -111.5491  48.658773
## ForclRt      -0.86997   -0.3349   -0.03076    0.2607   0.788779
## SchHP_Mi     -6.13985   -2.2171   -0.13622    2.0637   5.839752
## 
## ========================================================
## Total:
## 
## Iterations = 1:1000
## Thinning interval = 1 
## Number of chains = 1 
## Sample size per chain = 1000 
## 
## 1. Empirical mean and standard deviation for each variable,
##    plus standard error of the mean:
## 
##                 Mean        SD Naive SE Time-series SE
## EP_CROWD      1.1993   0.49571 0.015676       0.015676
## EP_DISABL     0.3219   0.46216 0.014615       0.014615
## Unemp14       0.4875   0.24832 0.007852       0.008222
## NOCAR       -12.1114   4.82381 0.152542       0.152542
## CTA14P        0.3184   0.15737 0.004977       0.005403
## Blk14P       -0.1713   0.07782 0.002461       0.002461
## Hisp14P      -0.2427   0.08918 0.002820       0.002663
## MEANMI_14     5.6817   2.81938 0.089157       0.089157
## PCRIMERT15  223.3861  84.50146 2.672171       2.672171
## VCRIMERT15 -260.9663 127.76350 4.040237       4.427919
## ForclRt      -0.3590   0.45680 0.014445       0.014445
## SchHP_Mi     -0.4922   1.22891 0.038861       0.031313
## 
## 2. Quantiles for each variable:
## 
##                  2.5%        25%       50%        75%     97.5%
## EP_CROWD      0.24172    0.86720    1.2022    1.51438   2.18180
## EP_DISABL    -0.65518    0.05532    0.3466    0.62468   1.20026
## Unemp14       0.01819    0.31859    0.4835    0.65730   0.97136
## NOCAR       -22.41493  -15.32653  -11.9838   -9.00723  -3.12000
## CTA14P        0.01610    0.21952    0.3088    0.42795   0.63433
## Blk14P       -0.32684   -0.22408   -0.1695   -0.11899  -0.02332
## Hisp14P      -0.40549   -0.30570   -0.2420   -0.17698  -0.07961
## MEANMI_14     0.19745    3.78261    5.6228    7.63868  11.11697
## PCRIMERT15   51.70911  165.39470  224.2801  278.08759 387.51160
## VCRIMERT15 -506.14814 -350.63344 -255.7145 -178.16864 -24.51751
## ForclRt      -1.26030   -0.64573   -0.3781   -0.03927   0.47976
## SchHP_Mi     -2.94549   -1.33309   -0.4907    0.30612   1.94802
## 
## ========================================================
## Simulated standard errors
##                 Direct     Indirect        Total
## EP_CROWD    0.14463594   0.45552642   0.49570548
## EP_DISABL   0.12411409   0.43380846   0.46215932
## Unemp14     0.09048284   0.23597502   0.24831508
## NOCAR       1.44116735   4.51590970   4.82381432
## CTA14P      0.06920288   0.16015178   0.15737481
## Blk14P      0.05382826   0.09125966   0.07781756
## Hisp14P     0.05787260   0.10505222   0.08917762
## MEANMI_14   2.15650116   3.73539916   2.81937805
## PCRIMERT15 31.89574694  81.66165343  84.50146342
## VCRIMERT15 39.03360487 123.78030943 127.76350101
## ForclRt     0.13905942   0.43137656   0.45680111
## SchHP_Mi    2.63346631   3.13805761   1.22890750
## 
## Simulated z-values:
##                 Direct    Indirect      Total
## EP_CROWD    3.28288902  1.59043566  2.4193988
## EP_DISABL   3.46109533 -0.24827517  0.6964413
## Unemp14     1.25337929  1.58529375  1.9632277
## NOCAR      -2.64068313 -1.83921830 -2.5107538
## CTA14P      1.48209439  1.34761669  2.0231218
## Blk14P     -0.06067795 -1.84167564 -2.2017765
## Hisp14P     1.16545051 -2.95215152 -2.7213374
## MEANMI_14  -0.61156101  1.87410431  2.0152301
## PCRIMERT15  1.81698896  2.02582060  2.6435765
## VCRIMERT15 -1.82082721 -1.53411205 -2.0425733
## ForclRt    -2.29301786 -0.09303157 -0.7858943
## SchHP_Mi   -0.15807574 -0.02418520 -0.4005035
## 
## Simulated p-values:
##            Direct     Indirect  Total    
## EP_CROWD   0.00102749 0.1117366 0.0155462
## EP_DISABL  0.00053798 0.8039215 0.4861525
## Unemp14    0.21006770 0.1128996 0.0496197
## NOCAR      0.00827391 0.0658831 0.0120474
## CTA14P     0.13831518 0.1777817 0.0430606
## Blk14P     0.95161569 0.0655226 0.0276811
## Hisp14P    0.24383668 0.0031557 0.0065018
## MEANMI_14  0.54082824 0.0609160 0.0438805
## PCRIMERT15 0.06921880 0.0427832 0.0082035
## VCRIMERT15 0.06863313 0.1250021 0.0410947
## ForclRt    0.02184698 0.9258785 0.4319294
## SchHP_Mi   0.87439712 0.9807049 0.6887857

On note que la variable PCRIMERT15 (taux de criminalité des biens) a le plus grand impact total positif (+221.82), ce qui signifie qu’elle a une influence substantielle, directement et indirectement sur l’indice de littératie HealthLit (accès aux informations en santé).

10.3 Analyse des résidus

10.3.1 Représentation de la distribution des résidus

Comme avec le modèle SEM, on constate que les résidus des quatre modèles semblent centrés autour de zéro, ce qui suggère qu’ils ne présentent pas de biais significatif.

10.4 Prédictions avec le modèle SDM

10.4.1 Prédiction selon les 3 prédicteurs, Trend Corrected, Trend Signal Noise et BLUP

##   pred_sdm_TC     pred_sdm_TS     pred_sdm_BP   
##  Min.   :226.7   Min.   :225.6   Min.   :219.6  
##  1st Qu.:239.5   1st Qu.:239.1   1st Qu.:238.2  
##  Median :242.8   Median :242.7   Median :243.0  
##  Mean   :242.6   Mean   :242.5   Mean   :242.5  
##  3rd Qu.:245.8   3rd Qu.:246.5   3rd Qu.:247.6  
##  Max.   :257.0   Max.   :258.7   Max.   :260.3

10.4.2 Comparaison des prédictions

On constate que la distribution des prédictions BLUP est relativement centrée et peu dispersée, ce qui suggère une bonne qualité de prédiction. La distribution des prédictions de Trend Corrected et de Trend Signal Noise sont similaires à celle des BLUP, ce qui indique que la correction de tendance n’a pas eu un impact majeur sur les résultats. Enfin, la distribution des valeurs observées présente quelques valeurs aberrantes, ce qui peut indiquer la présence d’outliers ou de phénomènes extrêmes.

11 Synthèse des résultats

## 
## Résultats d'estimation des modèles spatiaux
## =========================================================================================
##                                              Dependent variable:                         
##                     ---------------------------------------------------------------------
##                               OLS                     SLX              SAR        SEM    
## -----------------------------------------------------------------------------------------
## EP_CROWD                   0.459***                0.489***          0.378***   0.369*** 
##                             (0.143)                 (0.153)          (0.132)    (0.139)  
##                                                                                          
## EP_DISABL                  0.441***                0.424***          0.400***   0.448*** 
##                             (0.130)                 (0.138)          (0.120)    (0.126)  
##                                                                                          
## Unemp14                     0.179**                  0.125            0.113      0.095   
##                             (0.087)                 (0.099)          (0.081)    (0.089)  
##                                                                                          
## NOCAR                      -3.981***               -3.879**         -3.355***   -3.129** 
##                             (1.399)                 (1.531)          (1.292)    (1.389)  
##                                                                                          
## CTA14P                      0.113**                  0.101            0.095*     0.086   
##                             (0.058)                 (0.078)          (0.053)    (0.065)  
##                                                                                          
## Blk14P                     -0.086***                 0.008           -0.054*     -0.050  
##                             (0.033)                 (0.061)          (0.030)    (0.039)  
##                                                                                          
## Hisp14P                    -0.078**                  0.081            -0.044     -0.020  
##                             (0.033)                 (0.065)          (0.030)    (0.040)  
##                                                                                          
## MEANMI_14                   3.156**                 -2.316            1.697      1.481   
##                             (1.270)                 (2.493)          (1.175)    (1.630)  
##                                                                                          
## PCRIMERT15                 79.330***                59.888*          64.520**    51.313  
##                            (29.450)                (35.245)          (27.189)   (31.246) 
##                                                                                          
## VCRIMERT15                 -96.921**               -74.317*         -74.465**   -62.933  
##                            (38.982)                (44.325)          (35.993)   (39.688) 
##                                                                                          
## ForclRt                    -0.336**                 -0.295*          -0.313**  -0.353*** 
##                             (0.137)                 (0.153)          (0.127)    (0.136)  
##                                                                                          
## SchHP_Mi                   -1.648***                 0.235           -1.052*    -1.981** 
##                             (0.597)                 (3.028)          (0.557)    (0.910)  
##                                                                                          
## lag.EP_CROWD                                        0.664**                              
##                                                     (0.296)                              
##                                                                                          
## lag.EP_DISABL                                       -0.094                               
##                                                     (0.283)                              
##                                                                                          
## lag.Unemp14                                         0.347**                              
##                                                     (0.165)                              
##                                                                                          
## lag.NOCAR                                           -5.700*                              
##                                                     (3.088)                              
##                                                                                          
## lag.CTA14P                                           0.181                               
##                                                     (0.119)                              
##                                                                                          
## lag.Blk14P                                         -0.164**                              
##                                                     (0.078)                              
##                                                                                          
## lag.Hisp14P                                        -0.308***                             
##                                                     (0.085)                              
##                                                                                          
## lag.MEANMI_14                                       8.282**                              
##                                                     (3.317)                              
##                                                                                          
## lag.PCRIMERT15                                     136.796**                             
##                                                    (56.924)                              
##                                                                                          
## lag.VCRIMERT15                                    -193.747**                             
##                                                    (81.244)                              
##                                                                                          
## lag.ForclRt                                          0.020                               
##                                                     (0.300)                              
##                                                                                          
## lag.SchHP_Mi                                        -0.901                               
##                                                     (3.294)                              
##                                                                                          
## Constant                  239.050***              234.140***        127.676*** 240.179***
##                             (2.559)                 (4.405)          (11.475)   (3.065)  
##                                                                                          
## -----------------------------------------------------------------------------------------
## Observations                  791                     791              791        791    
## R2                           0.073                   0.108                               
## Adjusted R2                  0.059                   0.080                               
## Log Likelihood                                                      -3,169.949 -3,171.308
## sigma2                                                               170.525    170.700  
## Akaike Inf. Crit.                                                   6,369.898  6,372.616 
## Residual Std. Error    14.145 (df = 778)       13.980 (df = 766)                         
## F Statistic         5.092*** (df = 12; 778) 3.877*** (df = 24; 766)                      
## Wald Test (df = 1)                                                  99.525***  103.859***
## LR Test (df = 1)                                                    83.045***  80.326*** 
## =========================================================================================
## Note:                                                         *p<0.1; **p<0.05; ***p<0.01

12 Choix du modèle

12.1 Stratégie de Lesage et Pace

On commence par la branche de gauche SDM/SAR

\[ H_0 : \theta = 0 \]

## 
##  Likelihood ratio for spatial linear models
## 
## data:  
## Likelihood ratio = 15.604, df = 12, p-value = 0.21
## sample estimates:
## Log likelihood of HealthLit_SDM Log likelihood of HealthLit_SAR 
##                       -3162.147                       -3169.949

On accepte l’hypothèse nulle (p-value = 0.21) est > 5% et donc on part sur le modèle SAR et on teste le modèle SAR/OLS.

## 
##  Likelihood ratio for spatial linear models
## 
## data:  
## Likelihood ratio = 83.045, df = 1, p-value < 2.2e-16
## sample estimates:
## Log likelihood of HealthLit_SAR       Log likelihood of CHI_OLS 
##                       -3169.949                       -3211.471

On rejette l’hypothèse nulle (p-value < 2.2e-16) < 5% donc on choisit un modèle SAR. Sur la branche du centre on teste le modèle SDM/SLX sous l’hypothèse nulle :

\[ H_0 : \rho = 0, \theta \neq 0, \theta + \rho \cdot \beta \neq 0 \]

Le modèle non contraint est le modèle SDM et le modèle contraint le modèle SLX

## 
##  Likelihood ratio for spatial linear models
## 
## data:  
## Likelihood ratio = 67.768, df = 1, p-value = 2.22e-16
## sample estimates:
## Log likelihood of HealthLit_SDM Log likelihood of HealthLit_SLX 
##                       -3162.147                       -3196.031

la p-value < 5%, on rejette donc l’hypothèse nulle H0 et choisit le modèle SDM. Sur la branche de gauche, on teste SDM/SEM sous l’hypothèse nulle :

\[ H_0 : \theta + \rho \cdot \beta \neq 0 \]

Le modèle non contraint est le modèle SDM et le modèle contraint le modèle SEM

## 
##  Likelihood ratio for spatial linear models
## 
## data:  
## Likelihood ratio = 18.323, df = 12, p-value = 0.1062
## sample estimates:
## Log likelihood of HealthLit_SDM Log likelihood of HealthLit_SEM 
##                       -3162.147                       -3171.308

la p-value > 5% dont on accepte l’hypothèse nulle et le modèle retenu est le modèle SEM. On continue alos sur la branche et on teste le modèle SEM/OLS.

## 
##  Likelihood ratio for spatial linear models
## 
## data:  
## Likelihood ratio = 80.326, df = 1, p-value < 2.2e-16
## sample estimates:
## Log likelihood of HealthLit_SEM       Log likelihood of CHI_OLS 
##                       -3171.308                       -3211.471

la p-value < 5% on rejette l’hypothèse nulle et retient le modèle SEM.

La stratégie de test retient ainsi 2 modèles, le modèle SAR et le modèle SEM. On peut reteinir le modèle SAR qui a une p-value plus “concluante” (0.21 vs 0.1062 pour le premier niveau, 2.2e-16 vs 2.2e-16 pour le second niveau).

13 Conclusion

Dans cette étude portant sur l’indice de littératie en santé, qui reflète l’accès aux informations et ressources liées à la santé des habitants de Chicago, nous avons suivi plusieurs étapes méthodologiques. Tout d’abord, une analyse statistique descriptive de l’indice a été réalisée pour identifier les principales caractéristiques de la distribution au sein de la ville. Ensuite, une représentation cartographique des données a été produite afin de mettre en évidence les disparités spatiales en matière d’accès aux informations sur la santé.

Par la suite, des matrices de voisinage, basées sur les quatre plus proches voisins et la contiguïté, ont été construites. Ces matrices ont permis de caractériser la répartition spatiale des unités d’analyse et de faciliter les analyses spatiales ultérieures. Nous avons ensuite calculé l’indice global de Moran pour évaluer l’autocorrélation spatiale de notre variable cible, HealthLit. Les résultats ont révélé une forte autocorrélation spatiale, indépendamment de la matrice de voisinage choisie.

Pour la modélisation économétrique, nous avons sélectionné le modèle approprié sur la base de considérations théoriques et empiriques. Nous avons estimé successivement des modèles OLS, SLX, SAR, SEM et SDM afin d’identifier celui qui s’ajustait le mieux aux données. Les tests de sélection ont confirmé que le modèle SAR était le plus pertinent.

Enfin, les résultats indiquent que plusieurs facteurs influencent significativement l’indice de littératie en santé. Parmi eux figurent :

EP_CROWD (logements surpeuplés), EP_DISABL (personnes en situation de handicap), NOCAR (absence de véhicule personnel), PCRIMERT15 (taux de criminalité contre les biens), VCRIMERT15 (taux de criminalité violente), ForclRt (taux de saisies immobilières).

Ces variables illustrent les dimensions socio-économiques et contextuelles qui jouent un rôle central dans l’accès aux informations sur la santé à Chicago.